高斯流程(GPS)实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性,但仍需要选择合适的平滑核,这是非平凡的。以前的方法通过在平滑内核上使用GP先验,并通过扩展协方差来构建协方差函数,以绕过预先指定它的需求。但是,这样的模型在几种方面受到限制:它们仅限于单维输入,例如时间;它们仅允许对单个输出进行建模,并且由于推理并不简单,因此不会扩展到大型数据集。在本文中,我们引入了GPS的非参数过程卷积公式,该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点,以使用诱导变量的间域间采样进行快速采样。此外,我们提出了这些非参数卷积的组成,可作为经典深度GP模型的替代方案,并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP,多个输出GPS和DEEP GPS在基准测试上的模型性能,并发现在许多情况下,我们的方法可以提供比标准GP模型的改进。
translated by 谷歌翻译
Robust 2004是一种信息检索基准,其每个查询的大量判断使其成为可靠的评估数据集。在本文中,我们介绍了Mrobust04,这是一种多语言版本的robust04,使用Google Translate翻译为8种语言。我们还提供了该数据集上三个不同多语言检索器的结果。该数据集可在https://huggingface.co/datasets/unicamp-dl/mrobust上获得
translated by 谷歌翻译
当深层神经网络过于依赖培训数据集中的虚假相关性以解决下游任务时,就会发生快捷学习。先前的工作表明,这如何损害深度学习模型的组成概括能力。为了解决这个问题,我们提出了一种新的方法来减轻不受控制的目标域中的快捷方式学习。我们的方法使用附加的数据集(源域)扩展了训练集,该数据集(源域)是专门设计的,旨在促进学习基本视觉因素的独立表示。我们基于我们明确控制快捷机会以及现实世界目标域的合成目标域的想法。此外,我们分析了源域的不同规格和网络体系结构对组成概括的影响。我们的主要发现是,从源域中利用数据是减轻快捷方式学习的有效方法。通过促进学习表示的不同因素的独立性,网络可以学会仅考虑预测因素,并忽略推断期间潜在的快捷因素。
translated by 谷歌翻译
磁共振成像(MRI)是中风成像的中心方式。它被用来接受患者的治疗决定,例如选择患者进行静脉溶栓或血管内治疗。随后在住院期间使用MRI来通过可视化梗塞核心大小和位置来预测结果。此外,它可以用来表征中风病因,例如(心脏) - 栓塞和非胚胎中风之间的区分。基于计算机的自动医疗图像处理越来越多地进入临床常规。缺血性中风病变分割(ISLE)挑战的先前迭代有助于生成鉴定急性和急性缺血性中风病变分割的基准方法。在这里,我们介绍了一个专家注册的多中心MRI数据集,以分割急性到亚急性中风病变。该数据集包括400个多供应商MRI案例,中风病变大小,数量和位置的可变性很高。它分为n = 250的训练数据集和n = 150的测试数据集。所有培训数据将公开可用。测试数据集将仅用于模型验证,并且不会向公众发布。该数据集是Isles 2022挑战的基础,目的是找到算法方法,以实现缺血性中风的稳健和准确分割算法的开发和基准测试。
translated by 谷歌翻译
我们解决了与行业相关的尺度上的机器人轨迹计划问题。我们的端到端解决方案将高度通用的随机键算法与模型堆叠和集成技术集成在一起,以及用于溶液细化的路径重新链接。核心优化模块由偏置的随机基遗传算法组成。通过与问题依赖性和问题相关模块的独特分离,我们通过约束的天然编码实现了有效的问题表示。我们表明,对替代算法范式(例如模拟退火)的概括是直接的。我们为行业规模的数据集提供数值基准结果。发现我们的方法始终超过贪婪的基线结果。为了评估当今量子硬件的功能,我们使用Amazon Braket上的QBSOLV在量子退火硬件上获得的经典方法进行了补充。最后,我们展示了如何将后者集成到我们的较大管道中,从而为问题提供了量子准备的混合解决方案。
translated by 谷歌翻译
自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是,当前的度量使用通常是不明智的,并且不能反映基本的域名。在这里,我们提出了一个全面的框架,该框架指导研究人员以问题意识的方式选择绩效指标。具体而言,我们专注于生物医学图像分析问题,这些问题可以解释为图像,对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ,数据集和算法与输出问题相关的属性的属性与问题指纹相关,同时还将其映射到适当的问题类别,即图像级分类,语义分段,实例,实例细分或对象检测。然后,它指导用户选择和应用一组适当的验证指标的过程,同时使他们意识到与个人选择相关的潜在陷阱。在本文中,我们描述了指标重新加载推荐框架的当前状态,目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的,将在社区驱动的优化之后公开作为用户友好的工具包提供。
translated by 谷歌翻译
线性系统发生在整个工程和科学中,最著名的是差分方程。在许多情况下,系统的强迫函数尚不清楚,兴趣在于使用对系统的嘈杂观察来推断强迫以及其他未知参数。在微分方程中,强迫函数是自变量(通常是时间和空间)的未知函数,可以建模为高斯过程(GP)。在本文中,我们展示了如何使用GP内核的截断基础扩展,如何使用线性系统的伴随有效地推断成GP的功能。我们展示了如何实现截短的GP的确切共轭贝叶斯推断,在许多情况下,计算的计算大大低于使用MCMC方法所需的计算。我们证明了普通和部分微分方程系统的方法,并表明基础扩展方法与数量适中的基础向量相近。最后,我们展示了如何使用贝叶斯优化来推断非线性模型参数(例如内核长度尺度)的点估计值。
translated by 谷歌翻译
拓扑数据分析(TDA)是一种旨在发现隐藏在数据集中的拓扑信息的紧急领域。 TDA工具通常用于创建滤波器和拓扑描述符以改善机器学习(ML)方法。本文提出了一种算法,该算法将TDA直接应用于多级分类问题,而无需任何进一步的ML阶段,为不平衡数据集显示出优势。该算法在数据集上构建了一个过滤的单纯复合体。持续同源性(pH)被应用于指导选择未标记点的亚络合物,从标记的相邻点中获得大多数选票。我们选择具有不同尺寸的8个数据集,每类具有不同程度的类重叠和不平衡样本。平均而言,所提出的TDABC方法优于KNN和加权KNN。它在平衡数据集中的本地SVM和随机森林基线分类器竞争地表现得很竞争,并且它优于分类纠缠和少数群体的所有基线方法。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
Variational inference uses optimization, rather than integration, to approximate the marginal likelihood, and thereby the posterior, in a Bayesian model. Thanks to advances in computational scalability made in the last decade, variational inference is now the preferred choice for many high-dimensional models and large datasets. This tutorial introduces variational inference from the parametric perspective that dominates these recent developments, in contrast to the mean-field perspective commonly found in other introductory texts.
translated by 谷歌翻译